Determining causal effects of temporal multi-intervention assists decision-making. Restricted by time-varying bias, selection bias, and interactions of multiple interventions, the disentanglement and estimation of multiple treatment effects from individual temporal data is still rare. To tackle these challenges, we propose a comprehensive framework of temporal counterfactual forecasting from an individual multiple treatment perspective (TCFimt). TCFimt constructs adversarial tasks in a seq2seq framework to alleviate selection and time-varying bias and designs a contrastive learning-based block to decouple a mixed treatment effect into separated main treatment effects and causal interactions which further improves estimation accuracy. Through implementing experiments on two real-world datasets from distinct fields, the proposed method shows satisfactory performance in predicting future outcomes with specific treatments and in choosing optimal treatment type and timing than state-of-the-art methods.
translated by 谷歌翻译
Kidney transplantation is the preferred treatment for people suffering from end-stage renal disease. Successful kidney transplants still fail over time, known as graft failure; however, the time to graft failure, or graft survival time, can vary significantly between different recipients. A significant biological factor affecting graft survival times is the compatibility between the human leukocyte antigens (HLAs) of the donor and recipient. We propose to model HLA compatibility using a network, where the nodes denote different HLAs of the donor and recipient, and edge weights denote compatibilities of the HLAs, which can be positive or negative. The network is indirectly observed, as the edge weights are estimated from transplant outcomes rather than directly observed. We propose a latent space model for such indirectly-observed weighted and signed networks. We demonstrate that our latent space model can not only result in more accurate estimates of HLA compatibilities, but can also be incorporated into survival analysis models to improve accuracy for the downstream task of predicting graft survival times.
translated by 谷歌翻译
尽管在产生流利的文本方面取得了进步,但现有的预训练模型倾向于在产生诸如故事和新闻之类的叙述时将不连贯的事件序列附加到相关实体上。我们猜想,这些问题是由将实体表示为浅表词的静态嵌入而导致的,同时忽略了对其不断变化的状态建模,即随着文本的展开,即它们所携带的信息。因此,我们将变压器模型扩展到动态执行实体状态更新和叙事生成的句子实现。我们提出了一个对比框架,以在离散空间中学习状态表示,并将其他注意层插入解码器中以更好地利用这些状态。两个叙述数据集的实验表明,与有意义的实体状态的指导相比,我们的模型可以产生更多的连贯和多样化的叙事。
translated by 谷歌翻译
参考表达理解(REC)是视觉推理中最重要的任务之一,该任务需要模型来检测自然语言表达式所引用的目标对象。在拟议的管道中,一阶段参考表达理解(OSREC)已成为主要趋势,因为它合并了区域建议和选择阶段。许多最先进的OSREC模型采用多跳的推理策略,因为单个表达式中经常提到一系列对象,该对象需要多跳的推理来分析语义关系。但是,这些模型的一个未解决的问题是,在推理之前需要预先定义和固定推理步骤的数量,而忽略了表达式的不同复杂性。在本文中,我们提出了一个动态的多步推理网络,该网络允许根据推理状态和表达复杂性动态调整推理步骤。具体而言,我们采用变压器模块来记住和处理推理状态和增强学习策略,以动态推断推理步骤。这项工作可在几个REC数据集上实现最新性能或重大改进,从具有短表达式的Refcoco(+,G)到具有长而复杂的组成表达式的数据集。
translated by 谷歌翻译
最近提出的检测变压器(DETR)已建立了一个完全端到端的范式以进行对象检测。但是,DETR遭受慢训练的融合,这阻碍了其对各种检测任务的适用性。我们观察到,由于对象查询和编码图像特征之间的语义不一致,DETR的缓慢收敛在很大程度上归因于将对象查询与相关区域匹配的困难。通过此观察,我们设计了与DETR ++(SAM-DETR ++)设计的语义对齐匹配,以加速DETR的收敛并改善检测性能。 SAM-DETR ++的核心是一个插件模块,该模块将对象查询和编码图像功能投射到相同的功能嵌入空间中,在该空间中,每个对象查询都可以轻松地与具有相似语义的相关区域匹配。此外,SAM-DETR ++搜索了多个代表性关键点,并利用其功能以具有增强的表示能力的语义对齐匹配。此外,SAM-DETR ++可以根据设计的语义对准匹配,以粗到5的方式有效地融合多尺度特征。广泛的实验表明,所提出的SAM-DETR ++实现了优越的收敛速度和竞争性检测准确性。此外,作为一种插件方法,SAM-DETR ++可以以更好的性能补充现有的DITR收敛解决方案,仅使用12个训练时代获得44.8%的AP和49.1%的AP,并使用Resnet-50上的CoCo Val2017上的50个训练时代获得50个训练时期。代码可在https://github.com/zhanggongjie/sam-detr上找到。
translated by 谷歌翻译
网络和时间点过程是建模各个领域中复杂动态关系数据的基本构件。我们建议使用节点的潜在空间表示形式,提出了潜在空间鹰队(LSH)模型,这是一种连续时间的关系网络的新型生成模型。我们使用共同令人兴奋的霍克斯工艺在节点之间建模关系事件,其基线强度取决于潜在空间中的节点与发件人和接收器特定效果之间的距离。我们证明,我们提出的LSH模型可以复制在包括互惠和传递性在内的真实时间网络中观察到的许多功能,同时还可以实现卓越的预测准确性并提供比现有模型更明显的拟合。
translated by 谷歌翻译
随机块模型(SBM)是用于网络数据最广泛使用的生成模型之一。鉴于块或社区成员身份,许多连续的动态网络模型都建立在与SBM相同的假设上:有条件地有条件地独立在真实网络中观察到。我们提出了多元社区霍克斯(Mulch)模型,这是一种非常灵活的基于社区的模型,用于连续时间网络,使用结构化的多元霍克斯工艺在节点对之间引入依赖性。我们使用基于光谱聚类和基于可能性的本地改进程序拟合模型。我们发现,我们所提出的覆盖模型比在预测和生成任务中都比现有模型更准确。
translated by 谷歌翻译
未经监督的域名自适应人员重新识别(Reid)已被广泛调查以减轻域间隙的不利影响。这些作品假设目标域数据可以一次访问。然而,对于真实世界的流数据,这会阻碍及时适应改变数据统计数据以及对增加样本的充分利用。在本文中,为了解决更实际的情况,我们提出了一项新任务,终身无监督域自适应(Luda)人Reid。这是具有挑战性的,因为它要求模型不断适应目标环境的未标记数据,同时减轻灾难性的遗忘,为这么细粒度的检索任务。我们为这项任务设计了一个有效的计划,被称为Cluda-Reid,在那里反忘记与适应协调。具体地,提出了基于元的协调数据重放策略来重播旧数据并以协调的优化方向更新网络,以便适应和记忆。此外,我们提出了符合基于检索的任务的目标的旧知识蒸馏/继承的关系一致性学习。我们设置了两个评估设置来模拟实际应用方案。广泛的实验展示了我们Cluda-Reid与具有动态目标流的静止目标流和场景的方案的有效性。
translated by 谷歌翻译
培训有效的生成对抗性网络(GANS)需要大量的培训数据,但是训练型模型通常是用鉴别器过度拟合的次优。通过大规模和手工制作的数据增强,通过扩大有限培训数据的分布来解决此问题的几项问题。我们从一个非常不同的角度处理数据限制图像生成。具体而言,我们设计Genco,这是一种生成的共同培训网络,通过引入多种互补鉴别者来减轻鉴别者过度拟合问题,这些判别符号在培训中提供多种独特的观点来提供不同的监督。我们以两种方式实例化了Genco的想法。首先是重量差异共同训练(WECO),其通过多样化它们的参数共同列举多个独特的鉴别器。第二种方式是数据差异共同训练(DACO),其通过馈送具有输入图像的不同视图的鉴别器(例如,输入图像的不同频率分量)来实现共同训练。在多个基准上进行广泛的实验表明,Genco实现了具有有限培训数据的优异发电。此外,Genco还通过组合时补充了增强方法,并在结合时进行了一致和明确的性能。
translated by 谷歌翻译
Different people speak with diverse personalized speaking styles. Although existing one-shot talking head methods have made significant progress in lip sync, natural facial expressions, and stable head motions, they still cannot generate diverse speaking styles in the final talking head videos. To tackle this problem, we propose a one-shot style-controllable talking face generation framework. In a nutshell, we aim to attain a speaking style from an arbitrary reference speaking video and then drive the one-shot portrait to speak with the reference speaking style and another piece of audio. Specifically, we first develop a style encoder to extract dynamic facial motion patterns of a style reference video and then encode them into a style code. Afterward, we introduce a style-controllable decoder to synthesize stylized facial animations from the speech content and style code. In order to integrate the reference speaking style into generated videos, we design a style-aware adaptive transformer, which enables the encoded style code to adjust the weights of the feed-forward layers accordingly. Thanks to the style-aware adaptation mechanism, the reference speaking style can be better embedded into synthesized videos during decoding. Extensive experiments demonstrate that our method is capable of generating talking head videos with diverse speaking styles from only one portrait image and an audio clip while achieving authentic visual effects. Project Page: https://github.com/FuxiVirtualHuman/styletalk.
translated by 谷歌翻译